众所周知,在ADAS应用中,需要良好的估计车辆的姿势。本文提出了一种鉴定的2.5D内径术,由此由横摆率传感器和四轮速度传感器衍生的平面内径测量由悬架的线性模型增强。虽然平面内径术的核心是在文献中已经理解的横摆率模型,但我们通过拟合二次传入信号,实现内插,推断和车辆位置的更精细的整合来增强这一点。我们通过DGPS / IMU参考的实验结果表明,该模型提供了与现有方法相比的高精度的内径估计。利用返回车辆参考点高度变化的传感器改变悬架配置,我们定义了车辆悬架的平面模型,从而增加了内径模型。我们提出了一个实验框架和评估标准,通过该标准评估了内径术的良好和与现有方法进行了比较。该测距模型旨在支持众所周知的低速环绕式摄像头系统。因此,我们介绍了一些应用程序结果,该应用结果显示使用所提出的内径术来查看和计算机视觉应用程序的性能提升
translated by 谷歌翻译
电动汽车越来越普遍,具有电感折射板被认为是充电电动车辆的方便和有效的手段。然而,驾驶员通常较差,使车辆对准到必要的电感充电的必要精度时,使得两个充电板的自动对准是所需的。与车辆队列的电气化平行,利用环保相机系统的自动停车系统越来越受欢迎。在这项工作中,我们提出了一种基于环绕式摄像机架构的系统来检测,本地化,并自动将车辆与电感充电板对齐。费用板的视觉设计不标准化,并不一定事先已知。因此,依赖离线培训的系统将在某些情况下失败。因此,我们提出了一种在线学习方法,在手动将车辆用ChartionPad手动对准时,利用驾驶员的行动,并将其与语义分割和深度的弱监督相结合,以学习分类器以自动注释视频中的电荷工作以进行进一步培训。通过这种方式,当面对先前的未持代币支付板时,驾驶员只需手动对准车辆即可。由于电荷板在地上平坦,从远处检测到它并不容易。因此,我们建议使用Visual Slam管道来学习相对于ChiftPad的地标,以实现从更大范围的对齐。我们展示了自动化车辆上的工作系统,如视频HTTPS://youtu.BE/_CLCMKW4UYO所示。为了鼓励进一步研究,我们将分享在这项工作中使用的费用数据集。
translated by 谷歌翻译
摄像机是自动化驱动系统中的主要传感器。它们提供高信息密度,并对检测为人类视野提供的道路基础设施线索最优。环绕式摄像机系统通常包括具有190 {\ DEG} +视野的四个鱼眼相机,覆盖在车辆周围的整个360 {\ DEG}集中在近场传感上。它们是低速,高精度和近距离传感应用的主要传感器,如自动停车,交通堵塞援助和低速应急制动。在这项工作中,我们提供了对这种视觉系统的详细调查,在可以分解为四个模块化组件的架构中,设置调查即可识别,重建,重建和重组。我们共同称之为4R架构。我们讨论每个组件如何完成特定方面,并提供一个位置论证,即它们可以协同组织以形成用于低速自动化的完整感知系统。我们通过呈现来自以前的作品的结果,并通过向此类系统提出架构提案来支持此参数。定性结果在视频中呈现在HTTPS://youtu.be/ae8bcof7777uy中。
translated by 谷歌翻译
Object detection is a comprehensively studied problem in autonomous driving. However, it has been relatively less explored in the case of fisheye cameras. The standard bounding box fails in fisheye cameras due to the strong radial distortion, particularly in the image's periphery. We explore better representations like oriented bounding box, ellipse, and generic polygon for object detection in fisheye images in this work. We use the IoU metric to compare these representations using accurate instance segmentation ground truth. We design a novel curved bounding box model that has optimal properties for fisheye distortion models. We also design a curvature adaptive perimeter sampling method for obtaining polygon vertices, improving relative mAP score by 4.9% compared to uniform sampling. Overall, the proposed polygon model improves mIoU relative accuracy by 40.3%. It is the first detailed study on object detection on fisheye cameras for autonomous driving scenarios to the best of our knowledge. The dataset comprising of 10,000 images along with all the object representations ground truth will be made public to encourage further research. We summarize our work in a short video with qualitative results at https://youtu.be/iLkOzvJpL-A.
translated by 谷歌翻译
Multimodal integration of text, layout and visual information has achieved SOTA results in visually rich document understanding (VrDU) tasks, including relation extraction (RE). However, despite its importance, evaluation of the relative predictive capacity of these modalities is less prevalent. Here, we demonstrate the value of shared representations for RE tasks by conducting experiments in which each data type is iteratively excluded during training. In addition, text and layout data are evaluated in isolation. While a bimodal text and layout approach performs best (F1=0.684), we show that text is the most important single predictor of entity relations. Additionally, layout geometry is highly predictive and may even be a feasible unimodal approach. Despite being less effective, we highlight circumstances where visual information can bolster performance. In total, our results demonstrate the efficacy of training joint representations for RE.
translated by 谷歌翻译
使用相对比心脏磁共振成像(PC-CMR)进行的流量分析可以量化用于评估心血管功能的重要参数。该分析的重要部分是鉴定正确的CMR视图和质量控制(QC),以检测可能影响流量定量的伪像。我们提出了一个新型的基于深度学习的框架,用于对完整CMR扫描的流量进行完全自动化的分析,该框架首先使用两个顺序卷积神经网络进行这些视图选择和QC步骤,然后进行自动主动脉和肺动脉分段,以实现对量化的量化。钥匙流参数。对于观察分类和QC,获得了0.958和0.914的精度值。对于细分,骰子分数为$> $ 0.969,而平淡的altman情节表示手动和自动峰流量值之间的一致性很高。此外,我们在外部验证数据集上测试了管道,结果表明管道的鲁棒性。这项工作是使用由986例病例组成的多生临床数据进行的,表明在临床环境中使用该管道的潜力。
translated by 谷歌翻译
由于没有撤退迹象的车辆的不断增加的电气化,部署在汽车应用中的电子系统受到比以往任何时候都更严格的电磁免疫依从性约束,以确保附近电子系统的接近性不会影响其运行。模拟摄像机链接的EMI合规性测试需要监视和评估视频质量以验证这种合规性,到目前为止,这是一项手动任务。由于人类解释的性质,这是不一致的。在这里,我们建议使用分析的深度学习模型和从EMI合规检验得出的评级视频内容的解决方案。这些模型是使用完全由实际测试图像数据构建的数据集训练的,以确保最大化所得模型的准确性。从标准Alexnet开始,我们提出了四个模型来对EMI噪声水平进行分类
translated by 谷歌翻译
单眼3D人姿势估计技术有可能大大增加人类运动数据的可用性。单位图2D-3D提升使用图卷积网络(GCN)的表现最佳模型,通常需要一些手动输入来定义不同的身体关节之间的关系。我们提出了一种基于变压器的新型方法,该方法使用更广泛的自我发场机制来学习代表关节的代币序列。我们发现,使用中间监督以及堆叠编码器福利性能之间的剩余连接。我们还建议,将错误预测作为多任务学习框架的一部分,可以通过允许网络弥补其置信度来改善性能。我们进行广泛的消融研究,以表明我们的每项贡献都会提高性能。此外,我们表明我们的方法的表现超过了最新的单帧3D人类姿势估计的最新技术状态。我们的代码和训练有素的模型可在GitHub上公开提供。
translated by 谷歌翻译
计算机视觉/基于深度学习的3D人体姿势估计方法旨在从图像和视频中定位人类关节。姿势表示通常限制为3D联合位置/平移自由度(3DOF),但是,许多潜在的生物力学应用需要另外三个旋转DOF(6DOF)。位置DOF不足以分析求解3D人类骨骼模型中的关节旋转DOF。因此,我们提出了一种时间反向运动学(IK)优化技术,以推断整个生物力学知情和特定于主体的运动链中的关节取向。为此,我们从基于位置的3D姿势估计的链接方向开出链接方向。顺序最小二乘二次编程用于解决最小化问题,涉及基于框架的姿势术语和时间术语。使用关节DOF和运动范围(ROM)约束溶液空间。我们生成3D姿势运动序列,以评估IK方法的一般准确性和在边界情况下的准确性。我们的时间算法以平均每个关节角分离(MPJAS)误差(3.7 {\ deg}/关节总体,&1.6 {\ deg}/关节,下肢的平均值平均值(MPJAS)误差平均值较低。但是,在弯曲的肘部和膝盖的情况下,我们会获得低误差,但是,具有延伸/直肢阶段的运动序列会导致扭曲角度模棱两可。使用颞IK,我们减少了这些姿势的歧义,从而导致平均错误较低。
translated by 谷歌翻译
大多数关于行人姿势估计的现有作品都不考虑估计被阻塞的行人的姿势,因为相关的汽车数据集中没有遮挡零件的注释。例如,在汽车场景中用于行人检测的众所周知的数据集Citypersons不提供姿势注释,而MS-Coco(一种非自动动物数据集)包含人体姿势估计。在这项工作中,我们提出了一个多任务框架,以通过检测和实例分割任务在这两个分布上执行。此后,编码器使用两个分布的行人实例使用无监督的实例级适应方法来学习姿势特定的特征。提出的框架改善了姿势估计,行人检测和实例分割的最新性能。
translated by 谷歌翻译